Diffusion Model

2023年10月12日

@yuma_koizumi: 今月の音響学会誌に、@yatabe_ 先生と一緒に、拡散モデルの解説を寄稿しました。元々、「易しい解説」の予定だったので、理工系の学部生をターゲットにして書いています。理工系でない方も分かるよう、２章は数式を一切使わず説明してみました。ご笑覧ください。

https://pbs.twimg.com/media/F8MiudhaMAAHb1_.jpg

Diffusion models are autoencoders – Sander Dieleman

Autoencoder

@btreetaiji: 拡散モデルが話題ですが，拡散モデルは分布推定の意味でミニマックス最適な推定誤差を達成可能であることを示しました．

分布のサポートが低次元である場合は次元の呪いを回避し，Wasserstein距離の意味で最適レートを達成することも示しています．

主著は弊研究室M1の大古君です．

@StatMLPapers: Diffusion Models are Minimax Optimal Distribution Estimators. (arXiv:2303.01861v1 ) https://ift.tt/9t8X7ci

https://www.youtube.com/watch?v=tfOv8NLCnZs

https://www.youtube.com/watch?v=O5FFQZzGFaE

https://www.youtube.com/watch?v=soJUR-fiqnI

拡散モデルデータ生成技術の数理

拡散モデル：これまでにない生成品質と多様性を達成する生成モデル | 日経Robotics（日経ロボティクス）

深層生成モデルの1つである拡散モデル（Diffusion Model）の利用が急速に広がっている

2015年に米Stanford UniversityのSohl-Dickstein氏らによって最初のモデルが提案されてから）しばらく注目されていなかった

Deep Unsupervised Learning using Nonequilibrium Thermodynamics（2015）

2020年に米University of California BerkeleyのJonathan Ho氏ら）によって

ネットワークアーキテクチャや学習手法を工夫すれば他の深層生成モデルと同じ、もしくは上回る品質を達成できる

デノイジングスコアマッチングなどとつながりがある

ことが示され（本コラム 2020年9月号も参照）、再注目された。

Denoising Diffusion Probabilistic Modelsで提案

Diffusion Models Beat GANs on Image Synthesisも同じようなストーリー基素.icon

生成品質が高く、最尤推定によって学習するので多様なデータを生成でき、かつ安定して学習させることができる。

超解像、自動着色、画像修復、JPEG圧縮後修正

特に2022年4月に米OpenAIから発表されたDALL·E 2は拡散モデルを使ってテキストからの画像生成をこれまでにない品質と多様性で実現した

内部で2つの拡散モデル（テキストからCLIP画像埋め込みベクトル、CLIP画像埋め込みベクトルから画像）を組み合わせて使っている

実際にはテンソルらしい

/nishio/Stable Diffusionのpromptは77×768次元のテンソルになる

これまで難しかった動画生成も拡散モデルを使うことで実現できたと報告されている

訓練が安定しており、GAN で良く見られる問題が起きづらいhttps://ja.stateofaiguides.com/20220817-text2image-updates/

mode collapse

似たようなデータしか生成しなくなる現象が起きにくい

など

What are Diffusion Models? | Lil'Log

和訳：What are Diffusion Models?

GANでSOTAなモデルより高い精度を達成しています

生成モデルの限界

https://gyazo.com/76a297d3d4f9b7960c0cce2e861ed4c1

from https://www.youtube.com/watch?list=PLbtqZvaoOVPB2WCoUt9VCsl7BQHRdhb8m&v=SfndfFvLQW8&source_ve_path=MjM4NTE&feature=emb_title

GANは敵対的学習の構造そのものに、学習の不安定さと多様性の欠如があります。

VAEは代理的に用いているロス関数に依存しています。

flowでは、逆変換を行えるモデル構造をしていなければいけません。

Diffusion Modelは非平衡熱力学から発想を得ています。マルコフ連鎖を用いて各diffusion stepで少しずつ画像などの実データにランダムノイズを足していきます。モデルは反対にノイズから少しずつ実データに近づけていくように学習します。

非平衡は熱力学では扱えないので非平衡統計力学のことだと思う基素.icon

VAEやFlowとは異なり、学習はすべて固定されて行われ、偏在変数は元データと同じ分だけの大きさを持ちます。

https://gyazo.com/be9161c0c855804fda2e52cc004e002b

確率的勾配Langevin動力学

Langevin方程式

https://www.youtube.com/watch?v=10ki2IS55Q4

VAEの仲間

/nishio/Stable Diffusion勉強会#632310b5aff09e0000fbca88

https://twitter.com/_determina_/status/1588814749118394368?s=20